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摘 要 : 为 提高 在 多 真 值 场景 下 真 值 发 现 的 准确 性 ， 提 出 一 种 多 蚁 群 同步 优化 的 多 真 值 发现 算 法 〈multi-ant colonies 
synchronization optimization based multi-truth discovery algorithm，MAC-SO-MTD) 。 以 最 大 化 各 数据 源 提供 的 观测 值 集 
合 与 该 对 象 真 值 集合 之 间 相 似 度 的 加 权 和 为 目标 ， 将 多 真 值 发 现 问 题 建 模 为 求解 子 集 问 题 ， 在 此 基础 上 设计 蚁 群 算法 
进行 求解 : 根据 对 象 个 数 设 置 相应 的 蚁 群 ， 构 造 子 集 问 题 的 有 向 图 ， 利 用 路 径 概率 转移 公式 进行 同步 搜索 真 值 ; 将 信 
息 素 更 新 分 为 本 次 和 迭代 最 优 更 新 和 本 次 选 代 不 更 新 ， 提 高 了 算法 的 收 仇 速度。 最 后 ， 通 过 算法 复杂 度 分 析 和 在 真实 数 
据 集 上 的 实验 验证 了 该 算法 的 优越 性 。 
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了 Abstract: In order to improve the accuracy of truth discovery in multi-truth scene, this paper proposed a multi-ant colonies 
synchronization optimization based multi-truth discovery (MAC-SO-MTD) algorithm. It modeled the multi-truth discovery 


problem as the subset problem, which goal was maximizing the weighted sum of similarity between the set of observations 


i provided by each data source and the set of true values of the object. On this basis, then designed ant colony algorithm to solve 


the problem. It set ant colonies according to the number of objects. Based on the subset problem’s structure graph, this paper 


used routes’ probability transition equations to search for truths synchronically. After one cycle, the best route of this cycle 
updating and no updating were two instances of updating pheromone, which improved the convergence speed. Finally, the 
analysis of algorithm complexity and contrast experiment on the real data set validated the superiority of the algorithm . 
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FH 信息 产业 的 影响 十 分 巨大 中。 因此 ,解决 数据 冲突 问题 格外 关 
本 键 且 迫在眉睫 。 
随 着 大 数据 时 代 的 到 来 ， 互 联网 的 高 速 发 展 和 产业 的 数字 Yin 等 人 日 针 对 冲突 处 理 问 题 首先 定义 了 真 值 发 现 问题 , 即 


化 导致 各 种 数据 量 急剧 增 长 ， 同 时 也 带 来 各 种 数据 质量 问题 。 给 定 多 个 数据 源 提供 的 对 于 多 个 真实 对 象 的 大 量 冲突 描述 信息 
于 互联 网 的 开放 性 和 多 源 特性 ， 不 同 互联 网 平台 提供 的 数据 ” 研究 如 何 从 这 些 冲 突 信 息 中 为 每 一 个 真实 对 象 找 出 最 准确 的 描 
参差 不 齐 , 所 以 网 络 上 的 数据 不 一 定 都 是 真实 的 , 错误 、 过 时 、 述 。 有 些 对 象 在 不 同 数据 源 中 只 对 应 一 种 描述 ， 即 只 有 一 个 真 
不 完整 等 数据 的 存在 会 导致 多 个 数据 源 对 同一 实体 的 描述 存在 。” 值 ， 如 一 个 人 只 有 一 个 身份 证 号 ， 这 类 单 值 属 性 对 应 的 真 值 发 
着 冲突 巾 。 例 如 ， 不 同 天 气 网 站 针对 某 一 地 方 提供 不 同 的 天 气 。 现 问 题 为 单 真 值 发 现 问 题 ， 有 些 对 象 在 不 同 数据 源 中 对 应 多 种 
情况 ， 不 同 购物 网 站 为 同一 商品 提供 了 不 一 致 的 产品 信息 等 。 描述 ， 即 存在 多 个 真 值 ， 如 一 本 书 可 以 有 多 个 作者 、 一 个 人 可 
根据 “垃圾 进 ， 垃 圾 出 (garbage in, garbage out) ”的 原理 可 知 ， 以 有 多 个 头衔 等 ， 这 类 多 值 属性 对 应 的 真 值 发 现 问题 为 多 真 值 
低 质 量 的 冲突 数据 可 能 导致 错误 的 分 析 决 策 和 预测 ， 对 于 相关 ”发 现 问 题 。 
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多 真 值 发 现 问题 的 求解 与 单 真 值 发 现 问题 不 同 。 文 献 [3~9] 
针对 单 真 值 问题 ， 提 出 “对 象 真 值 唯一 ”的 假设 ， 并 选取 对 象 属 
性 中 得 分 最 高 或 概率 最 大 的 值 作为 真 值 。 而 多 真 值 发 现 问题 不 
但 要 找到 正确 的 值 ， 还 要 尽 可 能 地 将 所 有 的 真 值 都 找到 。 文 献 
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的 视图 ， 定 义 视图 链接 关系 图 ， 依 据 视图 与 描述 相互 迭代 影响 
计算 ,但 该 算法 并 不 适用 各 数据 源 均 仅 提供 了 部 分 实体 真 值 的 
情况 。 文 献 [12」 考虑 数据 源 中 不 同 领域 对 象 的 多 真 值 发 现 问 
题 ， 提 出 了 一 种 集成 贝 叶 斯 的 方法 来 考虑 数据 源 内 各 领域 对 象 


[10~12] 提 出 的 方法 可 以 解决 多 真 值 发 现 问题 。 但 文献 [10] 需 要 
设置 阔 值 来 选择 真 值 集合 ， 文 献 [11] 不 适用 于 各 数据 源 均 仅 
提供 了 部 分 实体 真 值 的 情况 ， 文 献 [12] 需 考虑 数据 源 中 对 象 
的 领域 信息 。 
马 如 霞 等 人 "3 提出 了 MTruths 算法 ， 能 处 理 各 数据 源 均 


生 述 的 可 信和 度 ， 能 够 不 需要 任何 监督 来 进行 多 真 值 发 现 ， 但 该 
算法 要 求 对 象 需 具 备 其 对 应 的 领域 信息 。 文 献 [13] 提出 了 
MTruths 算法 ， 将 多 真 值 发 现 问题 转换 为 一 个 最 优化 问题 ， 并 
在 真 值 计算 过 程 中 采用 了 基于 枚 举 的 方法 和 基于 贪心 策略 的 方 
法 。 该 算法 可 以 直接 得 到 对 象 的 真 值 集合 ， 避 免 通 过 冰 值 的 设 


仅 提 供 了 部 分 实体 真 值 的 情况 ,可 以 直接 返回 对 象 的 真 值 集合 ， 
避免 了 闵 值 的 选择 问题 ， 且 其 准确 性 优 于 已 有 多 真 值 算 法 。 但 
当 对 象 真 值 集合 基数 较 大 时 ，MTruths 算法 中 基于 贪心 策略 的 
方法 容易 陷入 局 部 最 优 ， 降 低 多 真 值 发 现 的 准确 性 。 本 文 针 对 


这 一 问题 ， 通 过 将 多 真 值 发 现 过 程 转换 为 求解 子 集 问题 ， 并 设 
计 蚁 群 算法 同步 进行 多 真 值 发 现 ， 在 对 象 真 值 集合 基数 较 大 时 
能 较 好 地 进行 多 真 值 发 现 。 

本 文 的 主要 贡献 如 下 : 


a) 将 多 真 值 发 现 过程 转 换 为 求解 子 集 问 题 , 通过 最 大 化 各 


数据 源 提供 的 观测 值 集合 与 对 象 真 值 集合 之 间 相 似 度 的 加 权 和 ， 


在 给 定 的 对 象 值 集中 选 出 合适 的 真 值 集合 ， 避 免 了 通过 设置 阐 
值 来 选择 真 值 ; 
b) 设计 蚁 群 算法 求解 问题 , 根据 对 象 数量 设置 相应 的 蚁 群 
同步 进行 多 真 值 发 现 ， 能 在 合理 时 间 内 找到 较 优 解 ; 
c) 通过 真实 数据 集 上 的 实验 验证 了 本 文 提出 的 算法 的 优 
越 性 。 


1 ”相关 工作 
值 问题 ， 研 究 者 们 进行 了 大 量 的 研究 。 文 献 [3] 首 


置 选择 对 象 真 值 。 但 当 对 象 真 值 集合 基数 较 大 时 ，MTruths 算 
法 的 准确 性 较 低 ， 而 本 文 提 出 的 方法 能 较 好 地 处 理 对 象 真 值 集 
合 基 数 较 大 时 的 多 真 值 发 现 问 题 。 


2 ”问题 描述 


多 真 值 发 现 问 题 假 设 对 象 的 真 值 是 一 个 集合 。 表 1 列举 了 
提供 《Distributed Systems: Concepts and Design》 一 书 的 五 个 网 
站 及 其 提供 的 作者 信息 。 

表 1 Distributed systems: concepts and design 作者 


mk 


息 
Table 1 Author information of discreted systems: concepts and design 
网 站 作者 


Coulouris George F; Dollimore Jean; Kindberg 


happybook 

Tim 
EnjoyStudy Coulouris; Dollimore Jean; Kindberg Tim 
Sunmark Store Coulouris 
The Book Depository George Coulouris 


Books2Anywhere.com Coulouris George F; Dollimore Jean; K 


表 1 可 知 ， 每 个 网 站 提供 的 作者 信息 都 不 一 样 且 难 以 判 
断 真 假 ， 当 想 要 收集 这 些 信息 时 就 存在 一 定 困 难 。 多 真 值 发 现 


针对 站 
先 提出 了 真 值 发 现 的 概念 ， 并 根据 链 路 分 析 的 思想 提出 了 
TruthFinder 算法 。 文献 [和] 基于 概率 投票 的 迭代 计算 方式 提出 了 
IVote 算法 , 并 在 此 基础 上 考虑 数据 源 的 权威 性 ， 即 数据 源 的 投 
票 比重 提出 了 IRVote 算法 。 文 献 [5 一 7] 针 对 有 具有 不 同 数据 类 型 
的 多 源 数据 ， 考 虑 了 异 构 数 据 的 真 值 发 现 问题 。 文 献 [8] 考 虑 数 
据 源 复制 和 数据 的 复制 关系 ， 通 过 一 个 多 层 概率 模型 提高 了 
Web 数据 的 可 用 性 。 文献 [9] 针 对 数据 源 间 可 能 存在 的 数据 复制 


问题 ， 将 特定 于 每 条 事实 的 联合 召回 率 和 联合 假 真 率 融 入 真人 
概率 计算 。 
上 述 这 些 方法 都 是 基于 真 值 唯一 的 假设 ， 通 过 选择 对 象 必 


性 中 得 分 最 高 或 概率 最 大 的 值 作为 真 值 。 对 于 多 真 值 的 情况 ， 
大 部 分 算法 模型 并 不 适用 。 
针对 多 真 值 发 现 问题 ， 文 献 [10] 首 先 提出 了 可 以 处 理 多 值 
盟 性 真 值 发 现 的 方法 〈latent truth model LIM) ， 但 该 方法 假设 
数据 源 的 查 全 率 和 查 准 率 服 从 Beta 分 布 , 如 果真 实数 据 集 不 满 
足 假 设 的 分 布 ， 则 会 对 效果 造成 很 大 影响 。 文 献 [11] 借 鉴 HITS 
(hypertext-induced topic search ) 算法 思想 , 提出 了 多 真 值 迭 代 
发 现 算法 ， 将 数据 源 为 实体 提供 的 描述 集 看 做 实体 在 数据 源 上 


就 是 要 从 这 些 多 源 冲 突 数 据 中 发 现 真 值 集合 。 

给 定 对 象 集合 O={01, 02, .…, ob .…, 0n}， 其 中 是 对 象 总 
数 ，ot 表 示 第 个 对 象 。 数 据 源 集合 S={81, s2, ..., Sh, ..., Sm}， 
数据 源 提供 对 象 描 述 信 息 ，s4 表示 第 有 个 数据 源 ， 其 中 m 是 数 
据 源 总 数 。 对象 ot 可 以 有 多 个 真 值 , 数据 源 s4 可 以 为 其 提供 观 
测 值 的 集合 。 对 象 ok 的 观测 值 集 和 ={fyw wm, .…, vii}， 表 示 所 
有 数据 源 对 对 象 or 提供 的 观测 值 的 集合 ， 其 中 Li 是 对 象 ok 观 
测 值 集 的 基数 。 对 象 ok 根据 算法 求解 得 到 的 真 值 集合 可 表示 为 
VV ，V4 是 观测 值 集 V 的 子 集 。 
本 文 研究 的 问题 为 : 给 定数 据 源 集合 S={s1, 52, .… 
sm}， 对 其 描述 的 对 象 集合 O={fol 02, .…, ob .…, 0n}， 根 据 每 个 
对 象 ot 的 观测 值 集 WV 找 出 其 所 有 真 值 集合 。 


3 ”多 真 值 发 现 模型 


本 章 首先 介绍 多 真 值 发 现 算法 的 模型 ， 然 后 对 该 模型 进行 
分 析 。 
3.1 模型 概述 

根据 两 个 假设 a) 对 象 的 真 值 情 况 应 该 尽 可 能 与 各 数据 源 
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提供 的 观测 值 接近 ; b) 数 据 源 的 质量 越 高 则 其 提供 的 对 象 属性 
合 与 真 值 集合 越 相似 D31。 因 此 可 将 多 真 值 发 现 问题 建 模 如 式 
GD)~(3) 所 示 。 


翌 上 
"3 


max ® = Dw, x FV Wi) (1) 
k=]1 b=1 
st. > =1Hw, e[0,1] (2) 
h=1 
Ve EV G3) 


模型 以 各 对 象 的 真 值 集合 和 数据 源 提供 的 该 对 象 观测 值 集 
合 之 间 相 似 度 的 加 权 和 达到 最 大 为 目标 ( 式 (1))。 式 (1]) 中 : 省 
为 数据 源 si 的 数据 质量 权重 ，Vii 为 数据 源 w 为 对 象 we 提供 的 
观测 值 集合 ，Vi 为 算法 得 到 的 对 象 ok 的 真 值 集合 , 且 是 Vi 的 
子 集 ，f(Vii,Vx) 定义 为 集合 Vi 与 双 的 Jaccard 相似 度 。 


nd 
JROD=F (4) 
Vr UV 
Ww 定义 如 下 : 
Df Vi Wi) 
mm = (5) 


> > je 


h=1 k=1 


式 (3) 中: 也 了 (VioVi) 为 数据 源 w 内 所 有 对 象 的 相似 度 之 


和 ; 多》 (Vi,V.i) 表示 所 有 数据 源 内 所 有 对 象 的 相似 度 之 和 。 


3.2 ”模型 分 析 

于 式 (1) 中 每 个 项 目 中 的 真 值 相互 独立 ， 所 以 当 每 个 对 象 
的 真 值 集合 与 对 应 的 观测 值 集合 相似 性 达到 最 大 时 ， 式 (1) 即 可 
达到 最 大 。 因 此 ， 可 得 知 该 问题 是 要 在 对 象 or 给 定 的 观测 值 集 
中 选 出 合适 的 真 值 集合 以 满足 式 (6)， 且 真 值 集合 应 尽 可 能 


IDaX @， 琴 Dw, x f (Vi Vii) (6) 


h=1 


式 (6) 为 单个 对 象 的 多 真 值 发 现 目标 函数 , 表示 最 大 化 各 数 
据 源 提供 的 观测 值 集合 与 该 对 象 真 值 集合 之 间 相 似 度 的 加 权 和 ， 
其 中 wi 为 数据 源 ww 的 数据 质量 权重 。 由 式 (5) 可 知 ， 数 据 源 质 
量 权重 由 其 内 所 有 对 象 的 相似 度 之 和 归 一 化 所 得 ， 因 此 在 求解 
真 值 集合 过 程 中 ， 可 通过 上 次 求解 获得 的 数据 源 质量 权重 计算 


Ul 


Ss 


对 象 真 值 ， 然 后 通过 本 次 求解 获得 的 真 值 集合 计算 数据 源 质量 
权重 。 


综 上 可 知 ， 该 多 真 值 计算 过 程 为 典型 的 子 集 问题 ， 即 要 在 
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合适 的 真 值 集合 ， 根 据 对 象 个 数 可 转换 成 多 子 集 问题 。 

求解 子 集 问题 是 无 序 组 合 优化 问题 ， 但 因子 集 问题 的 解 为 
一 个 与 元 素 次 序 无 关 的 集合 ， 与 蚂蚁 寻找 最 短 疯 食 路 径 的 自然 
行为 不 一 致 ， 给 蚁 群 算法 带 来 了 挑战 。 文 献 [14] 提出 了 基于 
图 的 蚂蚁 系统 ， 通 过 定义 等 效 路 径 将 问题 本 身 的 无 序 信息 


为 等 效 路 径 上 信息 素 量 ， 并 且 采 用 基于 等 效 路 径 增 强 的 信息 素 
更 新 策略 对 蚂蚁 实施 了 有 序 影 响 ， 增 加 了 问题 求解 的 信息 量 ， 


有 效 解决 了 蚂蚁 构造 解 的 有 序 性 与 解 无 序 性 之 间 的 矛盾 。 
对 此 ， 本 文 在 基于 图 的 蚂蚁 系统 上 设计 蚁 群 算法 进行 求解 
多 真 值 发 现 问 题 。 
4.1 多 蚁 群 同 步 优 化 的 多 真 值 发 现 算法 的 流程 描述 

多 真 值 发 现 问 题 中 每 个 对 象 的 多 真 值 计算 过 程 都 可 转换 成 
子 集 问题 , 据 此 可 以 设置 相应 数量 的 蚁 群 同步 进行 多 真 值 计算 ， 
因此 MAC-SO-MTD 算法 流程 如 图 1 所 示 。 


<、 初 始 化 > 


< 
v VY v 
蚁 群 1 蚁 和 群 K 蚁 群 n 
村 时 村 
对 象 ol 的 真 对 象 0 的 真 对 象 0, 的 真 
值 集合 V， 值 集合 wx 值 集合 从 ， N 
YY 
计算 所 有 数据 源 质量 权重 
{w |h=1, 2, 3, ..., m)} 


是 否 所 有 蚁 群 停止 迭代 


yY 
返回 所 有 对 象 的 真 值 集合 
{WW |E=1 2, 3 机 


村 


图 1 MAC-SO-MTD 算法 流程 


Fig.1 Flow chart of MAC-SO-MTD algorithm 

图 1 中 ， 蚁 群 数量 根据 对 象 个 数 进行 设置 ， 每 个 蚁 群 都 对 
应 一 个 对 象 ， 所 有 蚁 群 同步 进行 搜索 ， 每 次 迭代 完成 都 输出 对 
访 对 象 真 值 集合 。 数 据 源 质量 权重 根据 式 (5) 进 行 计算 。MAC- 
SO-MTD 算法 整个 的 计算 过 程 是 蚁 群 进行 真 值 寻找 和 数据 源 质 
量 权 重 计算 的 一 个 迭代 过 程 。 蚁 群 满足 收敛 条 件 即 停止 欠 代 ， 
其 对 应 对 象 的 真 值 集合 为 历史 最 优 解 对 应 的 真 值 结 合 。 当 所 有 
蚁 群 停止 从 代 后 , MAC-SO-MTD 算法 输出 所 有 对 象 真 值 集合 。 

本 文 将 蚁 群 收敛 条 件 设置 为 其 对 应 对 象 历史 最 优 目标 函数 
值 未 更 新 的 次 数 。 当 未 更 新 的 次 数 等 于 五 时 ， 蚁 群 不 再 进行 搜 


给 定 的 对 象 值 集中 选 出 合适 的 真 值 集合 以 满足 目标 函数 。 因 此 
可 根据 对 象 的 数量 将 对 象 的 多 真 值 计 算 过 程 转换 为 同等 数量 的 


子 集 问 题 ， 即 多 子 集 问 题 。 


4 MAC-SO-MTD 算法 设计 


mt 


3.2 节 可 知 多 真 值 计算 过 程 是 从 对 象 观测 值 集中 寻找 到 


索 。MAC-SO-MTD 算法 伪 代 码 算 法 1 所 示 。 

算法 1 MAC-SO-MTD 算法 

输入 : 数据 源 集合 S， 对 象 集合 O。 

输出 ， 所 有 对 象 真 值 集合 {Vix |K=1 2,3,.…, nn} 。 

1， VW = 了 ， 根 据 式 (5) 计 算 fw | 疡 =1 2,3,..., mm} ; 
2. 根据 Wi 及 Wi ， 通 过 式 (1) 计 算 目标 函数 值 @ ; 
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EN 


站 钦 ， 等 : 


3. G=@®@, Object, =V.,,Source, =w,, Threshold 和 temp 
均 为 长 度 为 n 的 零 向 量 ; 

4. ”生成 n 群 蚂蚁 并 放置 于 对 应 的 Ur ， 初 始 化 蚁 群 算法 参 
数 ， 蚁 群 收 敛 条 件 万 ; 

5. ”while( 向 量 Threshold 有 不 为 太 的 元 素 ) 


6. for k=1 to n 
7. 调用 蚁 群 上 寻找 对 象 ok 的 真 值 集合 
ex ， 最 优 函 数值 G6; 
8. if CO <templ[k] then 
9. Threshold[k|=Threshold[k]+1:; 
10. else Threshold[k]=0, temp[k]= G. ; 
11. end if 
12. end for 
13. for h=1 to m 
14. 根据 式 (5) 计 算数 据 源 s1 的 质量 权重 Ww ; 
15. end for 
16. 根据 式 (1) 计 算 目 标 函数 值 @; 
17. 让 G<g® then 
18. G=@。@, Object,=V.,, Source,=wW,; 
19. 根据 式 (10) 更 新 n 群 蚂蚁 的 信息 素 ; 
20. end if 
21. end while 
22. return {Vx [k=1, 2,3,..., n} 
算法 1 中 第 1~2 行 是 在 假设 所 有 观测 值 集合 均 为 真 值 的 基 


础 上 进行 数据 源 质量 权重 和 目标 函数 值 的 计算 ; 第 5 行 判断 癌 
量 Threshold 里 是 否 存在 不 为 五 的 元 素 ， 若 存在 则 算法 继续 运 


基于 多 蚁 群 同步 优化 的 多 真 值 发 现 算法 


ChinaXiv 合 作 其 


第 3 者 


鸡 
[we 
于 
局 
人 


上 为 子 集 问题 解 的 个 数 ， 即 对 象 的 真 值 个 数 ; 9 为 蚂蚁 所 找 解 
的 最 大 可 能 基数 ， ey 表示 第 上 个 蚁 群 第 7 步 选择 第 i 个 元 素 。 
在 基于 图 的 蚂蚁 系统 中 使 用 的 路 径 选 择 概率 公式 如 式 (7) 


kr TANZ1( EN 
(we y 从) 也 Cj ¢ tabu' 
WD=1 之 (wD) (7) 0) 

0 基 他 
其 中 : 禁忌 表 abus (e=1, 2,.…, M) 记 录 第 上 个 蚁 群 中 第 g 只 蚂蚁 
走 过 的 边 ; 0 与 8 表示 信息 素 量 和 启发 式 因子 的 重要 程度 ; 
W(t) 表示 在 t(t=0, 1, 2, .….) 时 刻 边 es 上 的 信息 素 量 ， 启 发 式 医 
子 是 外 部 信息 ， 表 示 选 择 第 个 蚁 群 中 第 i 个 元 素 的 希望 程 
度 ， 其 表达 式 如 式 (8) 所 示 。 


Dsum![h] 
大 h=1 
N= 一 一 (8) 


nm 
[| 
=1 


其 中 : > | 表示 第 个 对 象 所 有 观测 值 出 现 的 次 数 之 和 |; 


> sum*[ 门 表示 第 下 个 对 象 的 观测 值 集 双 e 中 第 ;个 观测 值 出 现 
h=1 


的 次 数 ， 向 量 sumr [有] 表达 式 如 式 (9) 所 示 。 
1， Vi eVx 
0， Vi 和 Vx 


sumi[h] = | (9) 


其 中 : sumi [站 表示 数据 源 si 为 对 象 ot 提供 第 i 观测 值 的 情况 ， 
若 数据 源 % 为 对 象 ox 提供 了 第 i 观测 值 ， 则 设置 为 1， 否 则 设 


行 , 否则 返回 所 有 对 象 的 真 值 集合 ; 第 6~12 行为 蚁 群 进行 多 真 
值 寻 找 步骤 , 返回 每 次 迭代 蚁 群 找到 的 最 优 值 Gi 及 其 对 应 的 真 


置 为 0。 
当 所 有 蚁 群 


次 迭代 完成 后 ， 根 据 计 算得 到 的 目标 函数 值 


值 集合 WV; ， 同 时 记录 历史 最 优 值 未 更 新 次 数 ， 第 13~15 行进 
行 数据 源 质 量 权 重 的 计算 ; 第 16 行 根据 当前 得 到 的 真 值 集合 
及 数据 源 质量 权重 计算 目标 函数 值 @ ; 第 17~20 行将 得 到 的 
标 函 数值 与 目前 保留 的 最 大 目标 函数 值 进行 比较 ， 从 而 决定 是 
否 更 新 算法 各 参数 和 蚁 群 的 信息 素 。 当 所 有 的 蚁 群 满足 收敛 条 
件 时 , 即 向 量 Threshold 里 的 元 素 均等 于 万 时 ,算法 退出 循环 ， 
并 输出 所 有 对 象 真 值 集合 。 

4.2 蚁 群 算法 设计 

4.2.1 蚁 群 算法 组 成 


决定 是 否 对 等 效 路 径 上 的 信 
式 (10) 所 示 。 


息 素 进行 更 新 ， 信 息 素 更 新 公式 如 


@ (tabu' (t 
rt() = Ce el (10) 
p(n) 其 他 


其 中 ， J (9) 为 信息 素 增 量 
蚊 群 中 要 进行 信息 素 更 新 的 路 径 的 目标 函数 值 , F (abuxs(D) 表 


示 第 上 个 蚁 群 中 要 进行 信息 素 更 新 的 等 效 路 径 :14; @ 为 常数 ， 


公式 ，@i(tabu"(7)) 为 第 大 个 


下 面 为 对 象 ot 对 应 的 第 个 蚁 群 算法 的 组 成 。 首 先 构 造 子 
集 问题 的 有 向 图 ， 如 图 2 所 示 。 
f i f "| 人 ) 人 i ) 「 ) et f 
-| > > | — 
et a 站 
Uk SR UE UF Uh Uk Uk, 
[| ee | 人 和 间 ey 
\ / 有 A a 
图 2 子 集 问题 构造 图 的 有 向 图 


Fig.2 Directed graph of subset problem’s structure graph 


用 来 调整 信息 素 增加 的 量 ， p(n) 表示 挥发 后 的 信息 素 矩 阵 ， 如 
式 (11) 所 示 。 


Pp(D)=(1— 

其 中 : Pp 为 信息 素 挥 发 的 系数 ， 
为 兼顾 算法 收敛 速度 和 全 局 搜索 能 力 ， 本 文采 用 本 次 迭代 
最 优 更 新 和 本 次 迭代 不 更 新 的 信息 素 更 新 策略 ， 即 若 本 次 迭代 
最 优 解 好 于 当前 全 局 最 优 解 ， 则 对 本 次 迭代 的 最 优 路 径 tabu* 
进行 信息 素 矩 阵 更 新 ， 若 本 次 迭代 最 优 解 等 于 或 小 于 当前 全 局 
最 优 解 ， 则 本 次 和 欠 代 不 更 新 ， 以 强化 同等 信息 素 分 布下 的 搜索 


k 
PXT,(t—D) (11) 
0<D<1l。 
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力度 。 
4.2.2 蚁 群 算法 的 流程 描述 


为 尽 可 能 多 地 从 对 象 观测 值 集中 找 H 


测 值 集 的 元 素 均 为 真 值 ， 蚁 群 
一 次 迭代 搜索 多 真 值 的 


大 对 


冯 钦 ， 


体 流 程 如 


区 


满足 收敛 条 件 


3 所 示 。 


根据 式 〈6) 选择 观察 
数 


值 ， 并 计算 目标 函 
值 @， 


中 ,是 否 比 本 次 迁 
代 最 优 值 CG 大 


对 象 we 的 真 值 集 
合 欠 ,， 本 次 远 代 
最 优 值 G 


| 


图 3 蚁 群 k 一 次 迭代 搜索 多 真 值 流程 


上 真 值 ， 可 假设 对 象 观 
其 进行 非 真 值 的 搜索 。 蚁 群 


Fig.3 Flow chart of one iterative search of multi-truth by ant colony k 


图 3 中 , 每 只 蚂蚁 每 搜索 一 次 就 根据 式 (6) 进 行 目标 函数 值 
计算 ， 并 与 当前 最 优 值 进行 比较 ， 如 小 于 当前 最 优 值 时 则 退出 
搜索 。 当 所 有 蚂蚁 都 搜索 完 后 ， 返 回 当前 最 优 目标 函数 值 对 应 
的 真 值 集 合 。 当 蚁 群 大 满足 收敛 条 件 后 不 再 进行 多 真 值 寻找 。 
蚁 群 算法 进行 多 真 值 发 现 的 伪 代 码 如 算法 2 所 示 。 
算法 2 ” 蚁 群 搜索 多 真 值 算法 
输入 : 数据 源 集合 S， 对 象 集合 O，Threshold[ 生 ， 蚁 群 收 化 
条 件 了 H，Objectr。 
输出 ， 对 象 真 值 集 合肥 ， 本 次 迭代 最 优 值 G. 。 

1. Objectt， 根 据 式 (6) 计 算 目 标 函 数值 PD; ，G = @,; 

2. 这 Threshold[ 如 不 等 于 H then 

3.: for ge=1l to N 

4. forj=1 to gq 

5. 第 g 只 蚂蚁 根据 式 (7) 在 %* 中 进行 冲 
突 值 的 选择 ; 

6. 根据 式 (6) 计 算 目 标 函 数值 B, ; 

if ®,>G. then 

8. G. = ， 并 将 该 观测 值 加 入 禁忌 表 

DLA ; 

9. else return 

10. end if 

11. end for 

12. end for 


13. 
14. 


15. endif 


算法 2 中 第 1 行 根 据 对 象 ok 的 历史 最 优 值 对 


等 : 基于 多 蚁 群 同步 优化 的 多 真 值 发 现 算法 


根据 G 对 应 的 


return Vi, G, 


Objectr 计算 其 


林 己 
A 


ChinaXiv 合 作 捧 入 


表 得 到 VV ; 


第 37 卷 第 1 期 


个 冲突 


和 否 继续 寻找 真 值 ;， 第 13 行 根 所 


表 计算 真 值 集合 WV ; 


对 应 的 真 值 集 


全 Wps 


4.3 算法 复杂 度 分 析 
4.3.1 时 间 复 杂 度 
算法 2 各 步 又 的 时 间 复 杂 度 《最 坏 情 况 ) 如 表 2 所 示 。 


滞 
2 


14 行 返 区 


算 目 标 函 数值 ; 第 7~10 行将 得 到 目 
标 函 数值 进行 比较 ， 


应 的 


值 集合 


标 函 数值 ;第 2 行 判 断 蚁 群 是 否 收敛 ， 若 不 收 
敛 则 算法 继续 运行 ， 第 5~6 行 表示 第 g 只 蚂 ! 
值 ， 并 讨 
前 保留 的 最 大 


以 在 第 j 步 寻找 一 
标 函 数值 与 


以 此 判断 第 g 只 蚂蚁 是 


虽 本 次 欠 代 最 优 
每 次 迭代 的 最 优 值 G 及 其 


值 G 对 应 的 禁忌 


表 2 算法 2 各 步骤 时 间 复 杂 度 
Table 2 Time complexity of each step of algorithm 2 
步骤 时 间 复 杂 度 
蚂蚁 禁忌 表 O(NxL#) 
蚂蚁 可 搜索 可 行路 径 O(NxLe) 
解 的 评价 更 新 O(N) 
算法 2 中 蚁 群 只 负责 找 出 对 象 的 真 值 集合 ，N 为 蚁 群 中 蚂 
蚁 数量 ， 对 问题 规模 没有 影响 ， 因 此 由 表 2 可 知 算法 2 的 时 间 
复杂 度 为 O(L#)。 


算法 1 各 步骤 的 时 间 复 杂 度 《最 坏 情况 ) 如 表 3 所 示 。 
表 3 算法 1 各 步骤 时 间 复 杂 度 


Table 3 Time complexity of each step of algorithm 1 


步骤 时 间 复 杂 度 
初始 化 蚁 群 参数 (0) ，77! ) OCRe+HLD 
算法 2 O(HxnxLe) 
数据 源 权重 的 计算 O(Hxm) 
言 息 素 更 新 O(HxnxLe) 
解 的 评价 更 新 O(HxN) 


4.3.2 空间 复杂 度 
算法 2 实际 实现 时 ， 


不 占 


存储 空 


向 图 的 功能 
间 。 算 法 2 各 部 分 的 空 
表 4 算法 2 各 部 分 空 


表 3 可 知 ,MAC-SO-MTD 算法 时 间 复 杂 度 为 O(HxnxLe)。 


可 以 


er 


言 息 素 表 兼 任 ， 


间 复 杂 度 如 表 4 所 示 。 
间 复 杂 度 


Table 4 Space complexity of each part of algorithm 2 


存储 内 容 空间 复杂 度 
物品 价值 OCLH 
信息 素 表 7 (0) OLD) 
启发 式 因子 大 OU 
禁忌 表 O(LR) 
数据 源 质量 权重 O(m) 
数据 源 集合 O(m) 
对 象 集合 O(n) 
对 象 观测 值 集合 O(mxLn) 
对 象 真 值 集合 OU 
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算法 2 中 蚁 群 只 负责 找 出 对 象 的 真 值 集合 ， 


ChinaXiv 合 作 
友 钦 ， 等 : 基于 多 蚁 群 同步 优化 的 多 真 值 发 现 算法 合作 明和 其 
对 此 由 表 4 可 择 投票 比重 大 于 天 的 作为 真 值 。 


知 算法 2 的 空间 复杂 度 为 OCLe)。 


算法 1 各 部 分 的 空 


间 复 杂 度 如 表 $ 所 示 。 


表 5 算法 1 各 部 分 空间 复杂 度 
Table5 Space complexity of each part of algorithm 1 
存储 内 容 空间 复杂 度 
算法 2 O(nxLe) 
数据 源 质量 权重 O(m) 
六 息 素 表 (0) OUx7 
向 量 Threshold O(n) 
向 量 temp O(n) 
数据 源 集合 O(m) 
对 象 集合 O(n) 
对 象 观测 值 集合 OUxmxZ 
对 象 真 值 集合 OUzxZD 


5 


实验 与 分 析 


本 章 


通过 在 真实 数据 


表 5 可 知 ,MAC-SO-MTD 算法 空间 复杂 度 为 OOzxZP)。 


集 上 进行 对 比 实验 ， 验 证 了 多 蚁 群 


步 优 化 的 多 真 值 发 


5.1 


数 


等 


于 o 


多 个 网 站 提供 的 


四 集 应 具有 多 


网 算 法 的 有 效 拆 


实验 数据 及 方 


本 文 所 提 算 法 解决 的 是 多 真 值 发 现 问 题 ， 


法 


值 


届 性 


现 


> 如 


本 文采 用 两 


的 图 


包含 多 个 
a) Books-Authors 数据 集 
的 数据 集 ， 其 中 包括 877 个 数据 源 、1 
了 100 本 书 
集中 的 重复 i 
割 , 经 过 处 理 


条 记录 ， 
始 数 
进行 分 
籍 以 及 25 604 条 记录 ， 其 
能 值 集 大 小 为 7.7。 


可 


个 
， 


数据 集 
34 
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图 书 


电影 


且 其 提供 


中 


个 真实 数据 集 : 
书 和 作者 的 
网 站 提供 的 电影 和 导演 的 信息 。 
3。 该 数据 集 是 


己 录 和 无 作 


口 


并 对 其 作者 信 


同 


E 和 准确 性 。 


姑 此 实验 采用 的 


书 的 作者 属性 、 
a)Books-Authors 数据 集 ， 
b)Movies-Directors 数据 集 ， 


信息 ; 


电影 的 导演 属性 


十 


263 本 书籍 


值 发 现 入 
告 以 及 33 971 


法 第 


籍 作者 的 真实 


FE 者 信息 的 记录 ， 
后 的 数据 集 包 含 8 


中 


作者 可 能 
该 数据 集 的 标准 
息 进行 手工 
b) Movies-Directors 数据 集 5021 。 


标注 


已 


息 。 
/ 忆 、 


本 文 去 掉 
并 对 作者 姓 与 名 


百 ， 所 


77 个 数据 源 、1 263 本 书 
值 集 大 小 为 [1, 54]， 平 均 
集 为 随机 挑选 出 
后 的 记录 。 


100 本 


部 电 


影 的 导演 可 以 有 多 


大 


此 电影 


的 导 


演 属 性 是 


含 】 15 个 车 


个 多 


外 电影 


网 站 的 各 种 类 


值 属性 。 


Movies-Directors 


电影 468 607 部 ， 共 


432 条 记录 。 


本 文 根 据 


有 影 上 映 年 份 ， 


年 | 


源 、36 242 部 电影 以 及 104 591 条 记录 。 其 


间 


上 映 


制 ， 最 


抽取 2010 一 2017 


e 影 的 记录 ， 经 去 掉 重 复 记录 和 无 
并 对 导演 姓 与 名 进行 分 


终 得 到 的 数据 


导演 信息 的 记录 ， 
集 包 含 15 个 数据 


中 导演 可 能 值 集 大 


小 为 [1, 71]， 平 均 可 能 值 集 大 小 为 3.1。 
机 挑选 出 188 部 


该 数据 集 的 标准 集 为 随 


影 并 对 


里 已 帝位 
AS 可 演 信 ， 


刀 进 行 手工 标注 后 的 记录 。 


CA 


将 本 文 所 提 方 法 分 别 与 Voting 算法 和 Mtruths_Greedy 算法 


和 遗传 算法 (genetic algorithm, GA) 


方法 1 


1 进行 对 比 ， 设 置 如 下 : 


Voting-K。 该 算法 采 / 


水/ 


投票 机 千 


1 计算 真 值 , 本 文选 


方法 2 Mtruths_Greedy。 该 算法 是 Mtruths 算法 提出 的 一 
种 算法 ， 在 真 值 计算 过 程 中 采用 贪心 策略 来 判断 真 值 集合 

方法 3 MGA-MTD。 该 方法 框架 与 本 文 所 提 算 法 框架 相 
同 ， 其 中 多 真 值 寻找 过 程 采用 经 典 遗传 算法 同步 进行 搜索 ， 算 
法 停 F 与 MAC-SO-MTD 算法 一 致 。 其 中 Books-Authors 数 
中 MGA-MTD 算法 参数 设置 :交叉 率 为 0.5, 变异 率 为 0.01， 
染色 体 个 数 为 30; Movies-Directors 数据 集中 MGA-MTD 算法 
及 置 : 交叉 率 为 0.6， 变 异 率 为 0.01， 染 色 体 个 数 为 50。 

方法 4 本文 第 4 章 提出 的 MAC-SO-MTD 算法 。 该 算法 
多 蚁 群 同步 进行 寻找 真 值 集合 ， 其 中 根据 文献 [14,16] 和 
结合 数据 集 特点 , Books-Authors 数据 集中 MAC-SO-MTD 算法 
及 置 为 : 信息 素 初 始 化 浓度 厂 (0) =100, 信息 素 重要 程度 2 
启发 式 信息 重要 程度 8 =0.65， 信 息 素 挥发 系数 D =0.1， 
常数 Q=20， 蚂 蚁 个 数 N=15; Movies-Directors 数据 集中 MAC- 
SO-MTD 算法 参数 设置 为 : 信息 素 初 始 化 浓度 (0) =100, 信息 
素 重 要 程度 & =1， 启 发 式 信息 重要 程度 8 =0.6， 信 息 素 挥发 系 
数 pP=0.1， 常 数 Q=400， 蚂 蚁 个 数 N=20。 

本 文 实验 采用 MATLAB 实现 所 有 算法 ， 软 件 开发 环境 为 
MATLAB R2017a。 实 验 的 内 存 大 小 为 16GB， 处 理 器 为 Intel% 
CoreGM i7-4770， 采 用 Windows7 64 位 操作 系统 。 

5.2 评价 指标 
实验 结果 采用 文献 [13] 中 的 衡量 
三 个 指标 来 衡量 算法 的 优 劣 。 

1) 查 准 率 (precision ) 表示 

确 真 值 所 占 的 比例 ， 


Es:3 
Hi 
hu 


的 


值 发 现 算 法 准确 性 


算法 得 到 对 象 的 真 值 集合 中 正 
计算 公式 如 式 (12) 所 示 。 

只 nyY 

TV 
其 中 : 表示 对 象 ot 所 有 的 真 值 集合 ，; 
象 ok 的 真 值 集合 ， 到 站 wx 表示 算法 
的 集合 

2) 查 全 率 (recall) 表示 算法 得 到 的 真 值 集合 中 正确 
5 对 应 正确 真 值 集 的 比例 ， 计 算 公式 如 式 (13) 所 示 。 


X100% 


(12) 


正 为 对 象 ok 真 值 


值 


(13) 


k 


率 和 查 


3) Fl 指标 表示 查 准 
如 式 (14) 所 示 。 


全 率 的 调和 平均 数 ， 计算 公式 


2xPxR 
P+R 


Fl= (14) 


5.3 MAC-SO-MTD 算法 参数 敏感 性 分 析 

MAC-SO-MTD 算法 中 采用 目标 函数 值 未 更 新 次 数 万 作为 
蚁 群 收敛 的 条 件 ， 因 此 需要 对 互 值 的 敏感 性 进行 分 析 。 

在 Books-Authors 数据 集 与 Movies-Directors 数据 集 上 对 五 
值 取 不 同 值 ， 分 别 运 行 10 次 计算 其 对 应 P、R 和 下 的 均值 ， 
实验 结果 如 图 4 所 示 。 


大 
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收敛 条 件 可 设置 为 对 应 目标 函数 值 未 更 新 6 次 。 
5.4 对 比 结果 分 析 

本 文 所 提 算 法 分 别 对 比 于 Voting 算法 和 、Mtruths_Greedy 
算法 和 MGA-MTD 算法 。 其 中 Voting 算法 为 真 值 发 现 的 基准 
算法 ，Mtruths_Greedy 算法 可 以 直接 返回 对 象 的 真 值 集合 ， 且 
在 准确 性 方面 优 于 现 有 多 真 值 算法 ; MGA-MTD 算法 采用 遗传 


算法 进行 多 真 值 的 寻找 。 
原始 的 Voting 算法 根据 投票 的 多 少 给 出 观测 值 为 真 的 可 能 
—¥*— Books-Authors 
65[ | Movies-Directors 性 ， 不 能 直接 返回 真 值 集合 ， 因 此 需要 设置 一 个 阔 值 kK， 选择 
1 2 3 4 5 6 党 8 9 10 11 12 13 14 
值 概率 大 于 天 的 观测 值 为 真 值 .实验 设置 玉 值 分 别 为 153%、30%、 
(a) 查 准 率 P 45%。 
(a) Precision rate P 在 两 个 数据 集 上 分 别 用 Voting-K、Mtruths_Greedy、MGA- 
MTD 及 MAC-SO-MTD 算法 进行 实验 , 运行 10 次 计算 P、R 和 
ee 1 的 均值 和 标准 差 ， 实 验 结果 如 表 6、7 所 示 。 

表 6 不 同方 法 在 Books-Authors 数据 集 上 的 真 值 发 现实 验 结果 
wi Table6 Results of different truth discovery methods on the Book- 
Authors data set 
本 
区 方法 P R Fl 

Voting-15% 98.57+0 62.64+0 76.60+0 
jl | Voting-30% 100+0 19.82+0 33.08+0 
一 Books-Authors 
eM Voting-45% 100+0 5.47+0 10.37+0 
1 2 3 4 5 6 7 8 9 10 11 12 13 14 
值 Mtruths_Greedy 89.85+0 80.64+0 85.00+0 
(b) 查 全 率 民 MGA-MTD 89.7+0.93 90.82+0.83 90.25+0.66 
(b) Recall ratio R MAC-SO-MTD 89.58+t1.66 91.41+0.80 90.47+0.68 
表 7 不 同方 法 在 Movies-Directors 数据 集 上 的 真 值 发 现实 验 结果 
中 办 -二 a e Table7 Results of different truth discovery methods on Movies-Directors 
data Set 
方法 P R Fl 
Voting-15% 98.29+0 88.31+0 93.04+0 
Voting-30% 99.07+0 60.92+0 75.45+0 
Voting-45% 98.66+0 42.34+0 59.25+0 
Mtruths_Greedy 95.78+0 91.19+0 93.43+0 
= BookssAuthors 
= MGA-MTD 90.54+0.3 97.17+0.16 93.74+0.15 
1 入 3 4 5 6 党 8 9 10 11 12 13 14 
人 值 MAC-SO-MTD 92.52+0.12 96.4740.08 94.454+0.08 
(OF1 指标 由 表 6 与 7 可知 , MAC-SO-MTD 算法 的 查 全 率 R 与 fl1 指 
(c) Fl index 标 均 优 于 Mtruths_Greedy 算法 ， 且 F1 指标 优 于 Voting-K 算法 
图 4 五 值 对 查 准 率 了、 查 全 率 RR 和 Fl 指标 的 影响 与 MGA-MTD 算法 ， 而 Voting-K 算法 的 查 准 率 P 虽然 稍 高 于 
Fig.4 Influence of H value on precision P, recall Rand Fl 其 他 对 比 算法 , 但 由 于 其 查 全 率 R 较 低 ， 所 以 Voting-K 算法 的 
图 4 可 看 出 ,在 Books-Authors 数据 集 上 ,MAC-SO-MTD  ” 1 指标 明显 低 于 其 他 对 比 算法 。 在 Books-Authors 数据 集中 ， 


算法 的 查 准 率 尸 和 F1 指标 随 五 值 的 增 大 而 增 大 ， 查 全 率 随 ” MGA-MTD 算法 的 查 准 


虽然 稍 高 于 MAC-SO-MTD 算法 ， 


五 值 的 增 大 而 逐渐 减 小 , 当 五 值 大 于 等 于 11 时 ,MAC-SO-MTD ”但 其 查 全 率 R 与 Fl 指标 均 低 于 MAC-SO-MTD 算法 。 而 在 
算法 的 Fl1 指标 趋 于 稳定 , 因此 在 Books-Authors 数据 集中 蚁 群 。 Movies-Directors 数据 集中 ，MAC-SO-MTD 算法 的 Fl 指标 显 
的 收敛 条 件 可 设置 为 对 应 目标 函数 值 未 更 新 11 次 。 著 高 于 其 他 三 种 算法 。 

而 在 Movies-Directors 数据 集 上 , MAC-SO-MTD 算法 的 查 通过 在 两 个 真实 数据 集 上 的 实验 可 知 ，MAC-SO-MTD 算 
准 率 P、 查 全 率 R 和 Fl 指标 波动 性 较 小 。 当 万 值 大 于 等 于 6 法 的 准确 性 比 MGA-MTD 算法 更 高 。 而 Voting-K 算法 中 由 于 


时 F1 指标 趋 于 稳定 ， 因 此 在 Movies-Directors 数据 集中 蚁 群 的 。“ 占 比 越 高 的 观测 值 越 可 能 为 真 值 ， 随 着 闵 值 K 的 增 大 ， 查 准 率 


己 越 大 ， 
值 集合 .Mtruths_Greedy 算法 是 基于 
将 对 象 观 测 
选 ， 
查 全 率 尺 和 Fl 指标 均 低 于 MAC-SO-MTD 算法 。 
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数 
现 作为 数据 集成 中 冲突 消解 的 有 效 手段 ， 得 到 了 广泛 研究 。 然 
ms 多 

发 现 问题 ， 本 文 提 
算法 MAC-SO-MTD， 将 对 象 的 多 真 值 发 现 六 
题 ， 
问题 ， 提 高 了 多 真 值 发 现 的 准确 性 ， 
时 能 


但 其 查 全 率 尺 显著 降低 ， 因 此 无 法 返回 对 象 完 整 的 真 

贪心 策略 进行 多 真 值 发 现 ， 
为 真 值 的 概率 进行 排列 并 挑 
故 其 


互 
当 


值 集 里 的 观测 值 按 可 能 
分 布 较 均匀 时 易 陷 入 局 部 最 优 ， 


当 对 象 的 真 值 较 多 


结束 语 


数据 在 各 行 各 业 中 发 挥 着 越 来 越 重要 的 作用 ， 如 何 从 冲突 


居中 挖掘 出 准确 的 数据 具有 重要 的 意义 和 研究 价值 。 


当前 的 研究 工作 更 多 地 关注 单 真 值 发 现 问题 。 针 对 
同步 优化 的 多 真 值 发 现 
过 程 转 换 成 子 集 问 
设计 多 蚁 群 算法 同步 进行 真 值 搜索 ， 避 免 了 闵 值 选择 的 
在 对 象 真 值 集合 基数 较 大 
考虑 了 数据 源 权重 对 真 值 


出 了 一 种 基于 多 蚊 群 


较 好 地 进行 多 真 值 发 现 。 同 时 ， 


发 现 效果 的 影响 ， 在 计算 过 程 中 迭代 地 进行 蚊 群 真 值 寻找 和 数 


据 源 质量 权重 计算 。 
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